CallMeSurprise

Spark入门 - 3 测试Spark集群

这是Spark入门的第三篇,也是最后一篇。说是入门,其实就只是简单的根据两本Spark书本,结合网络资料,自己一边动手实现,一边做的记录。自己看的时候确实方便许多,重新搭建一遍Hadoop-2.6.4的时候,查看前两篇记录,重现一遍的时候效率很高。

环境的搭建只是基础中的基础,不过之后的一切工作都要在这上面展开,并且用途也因人而异。因此这部分的记录入门尚可。

通过Spark提供的示例LocalPi测试Spark集群

该示例是用Spark的run-example命令在Spark集群里运行示例LocalPi,最终打印Pi的一个大约的值到Shell控制台。

(1)启动Spark集群和Spark Shell

(2)进入Spark的bin目录下,用run-example命令运行Spark自带的示例LocalPi,该示例的源码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
package org.apache.spark.examples

import scala.math.random

import org.apache.spark._
import org.apache.spark.SparkContext._

object LocalPi {
def main(args: Array[String]) {
var count = 0
for (i <- 1 to 100000) {
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) count += 1
}
println("Pi is roughly " + 4 * count / 100000.0)
}
}

在master结点的Spark的bin目录下输入以下命令:

1
root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6# ./bin/run-example org.apache.spark.examples.LocalPi spark://master:7077
Pi is roughly 3.14716
root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6#

结语

根据书本整理的三篇Spark入门文章到此结束。大致实现思路均为本人亲自实现,修正了书本中的一些错误。

更为详细的使用,以及一些理论知识,还需要进一步学习!